In this paper, we develop an efficient multi-scale network to predict action classes in partial videos in an end-to-end manner. Unlike most existing methods with offline feature generation, our method directly takes frames as input and further models motion evolution on two different temporal scales.Therefore, we solve the complexity problems of the two stages of modeling and the problem of insufficient temporal and spatial information of a single scale. Our proposed End-to-End MultiScale Network (E2EMSNet) is composed of two scales which are named segment scale and observed global scale. The segment scale leverages temporal difference over consecutive frames for finer motion patterns by supplying 2D convolutions. For observed global scale, a Long Short-Term Memory (LSTM) is incorporated to capture motion features of observed frames. Our model provides a simple and efficient modeling framework with a small computational cost. Our E2EMSNet is evaluated on three challenging datasets: BIT, HMDB51, and UCF101. The extensive experiments demonstrate the effectiveness of our method for action prediction in videos.
translated by 谷歌翻译
Single-cell technologies are revolutionizing the entire field of biology. The large volumes of data generated by single-cell technologies are high-dimensional, sparse, heterogeneous, and have complicated dependency structures, making analyses using conventional machine learning approaches challenging and impractical. In tackling these challenges, deep learning often demonstrates superior performance compared to traditional machine learning methods. In this work, we give a comprehensive survey on deep learning in single-cell analysis. We first introduce background on single-cell technologies and their development, as well as fundamental concepts of deep learning including the most popular deep architectures. We present an overview of the single-cell analytic pipeline pursued in research applications while noting divergences due to data sources or specific applications. We then review seven popular tasks spanning through different stages of the single-cell analysis pipeline, including multimodal integration, imputation, clustering, spatial domain identification, cell-type deconvolution, cell segmentation, and cell-type annotation. Under each task, we describe the most recent developments in classical and deep learning methods and discuss their advantages and disadvantages. Deep learning tools and benchmark datasets are also summarized for each task. Finally, we discuss the future directions and the most recent challenges. This survey will serve as a reference for biologists and computer scientists, encouraging collaborations.
translated by 谷歌翻译
手卫生是世界卫生组织(WHO)提出的标准六步洗手行动。但是,没有很好的方法来监督医务人员进行手卫生,这带来了疾病传播的潜在风险。在这项工作中,我们提出了一项新的计算机视觉任务,称为手动卫生评估,以为医务人员提供手动卫生的明智监督。现有的行动评估工作通常在整个视频上做出总体质量预测。但是,手动卫生作用的内部结构在手工卫生评估中很重要。因此,我们提出了一个新颖的细粒学习框架,以联合方式进行步骤分割和关键动作得分手,以进行准确的手部卫生评估。现有的时间分割方法通常采用多阶段卷积网络来改善分割的鲁棒性,但由于缺乏远距离依赖性,因此很容易导致过度分割。为了解决此问题,我们设计了一个多阶段卷积转换器网络,以进行步骤细分。基于这样的观察,每个手洗步骤都涉及确定手洗质量的几个关键动作,我们设计了一组关键的动作得分手,以评估每个步骤中关键动作的质量。此外,在手工卫生评估中缺乏统一的数据集。因此,在医务人员的监督下,我们贡献了一个视频数据集,其中包含300个带有细粒注释的视频序列。数据集上的广泛实验表明,我们的方法很好地评估了手动卫生视频并取得了出色的性能。
translated by 谷歌翻译
现有检测方法通常使用参数化边界框(Bbox)进行建模和检测(水平)对象,并将其他旋转角参数用于旋转对象。我们认为,这种机制在建立有效的旋转检测回归损失方面具有根本的局限性,尤其是对于高精度检测而言,高精度检测(例如0.75)。取而代之的是,我们建议将旋转的对象建模为高斯分布。一个直接的优势是,我们关于两个高斯人之间距离的新回归损失,例如kullback-leibler Divergence(KLD)可以很好地对齐实际检测性能度量标准,这在现有方法中无法很好地解决。此外,两个瓶颈,即边界不连续性和正方形的问题也消失了。我们还提出了一种有效的基于高斯度量的标签分配策略,以进一步提高性能。有趣的是,通过在基于高斯的KLD损失下分析Bbox参数的梯度,我们表明这些参数通过可解释的物理意义进行了动态更新,这有助于解释我们方法的有效性,尤其是对于高精度检测。我们使用量身定制的算法设计将方法从2-D扩展到3-D,以处理标题估计,并在十二个公共数据集(2-D/3-D,空中/文本/脸部图像)上进行了各种基本检测器的实验结果。展示其优越性。
translated by 谷歌翻译
知识图(kgs)因其学习单一关系事实的表示能力而获得了突出。最近,研究重点是建模超级关系的事实,这些事实超出了单一关系事实的限制,使我们能够代表更复杂和现实的信息。但是,现有的超级关系中学习表征的方法主要集中于增强从预选赛到基础三元组的沟通,同时忽略了从基本三重限制者到资格赛的信息流。这可能会导致次级预选赛表示,尤其是在提出大量预选赛时。它促使我们设计一个利用多个聚合器来学习超级关系事实的表示框架:从基本三重的角度来看,一个框架从资格符的角度来看。实验证明了我们框架对多个数据集的超相关知识图完成的有效性。此外,我们进行了一项消融研究,以验证各个组件在我们的框架中的重要性。可以在\ url {https://github.com/harryshomer/quad}找到复制我们的结果的代码。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
为了应对复杂的照明环境中的车辆重新识别(RE-ID)的挑战,由于其出色的互补优势,因此考虑了多光谱来源,例如可见和红外信息。然而,多光谱的车辆重新ID遭受了由不同模态的异质特性以及各种身份不同视图的各种外观的巨大挑战引起的交叉模式差异。同时,各种环境干扰会导致每种方式中的样本分布差异很大。在这项工作中,我们提出了一个新型的跨方向一致性网络,以同时克服与模式和样本方面的差异。特别是,我们设计了一个新的跨方向中心损失,以将每个身份的模态中心拉动接近减轻的跨模式差异,而每个身份的样本中心接近减轻样品差异。这种策略可以为车辆重新ID生成歧视性的多光谱特征表示。此外,我们设计一个自适应层归一化单元,以动态调整个体特征分布以处理稳健学习的模式内特征的分布差异。为了提供一个全面的评估平​​台,我们创建了高质量的RGB-NIR TIR多光谱车辆重新ID基准(MSVR310),其中包括从广泛的观点,时间跨度和环境复杂性的310辆不同的车辆。对创建和公共数据集进行的全面实验证明了与最先进方法相比,提出的方法的有效性。
translated by 谷歌翻译
视频框架插值〜(VFI)算法近年来由于数据驱动算法及其实现的前所未有的进展,近年来有了显着改善。最近的研究引入了高级运动估计或新颖的扭曲方法,以解决具有挑战性的VFI方案。但是,没有发表的VFI作品认为插值误差(IE)的空间不均匀特征。这项工作引入了这样的解决方案。通过密切检查光流与IE之间的相关性,本文提出了新的错误预测指标,该指标将中间框架分为与不同IE水平相对应的不同区域。它基于IE驱动的分割,并通过使用新颖的错误控制损耗函数,引入了一组空间自适应插值单元的合奏,该单元逐步处理并集成了分段区域。这种空间合奏会产生有效且具有诱人的VFI解决方案。对流行视频插值基准测试的广泛实验表明,所提出的解决方案在当前兴趣的应用中优于当前最新(SOTA)。
translated by 谷歌翻译
基于暹罗网络的跟踪器将3D单一对象跟踪作为模板和搜索区域的点特征之间的互相关学习。由于跟踪过程中模板和搜索区域之间的外观差异很大,因此如何学习它们之间的稳健跨相关性以识别搜索区域中的潜在目标仍然是一个挑战性的问题。在本文中,我们明确使用变压器形成一个3D Siamese变压器网络,以学习模板和点云的搜索区域之间的强大互相关。具体来说,我们开发了一个暹罗点变压器网络,以了解目标的形状上下文信息。它的编码器使用自我注意力来捕获点云的非本地信息来表征对象的形状信息,而解码器则利用交叉注意来提取歧视点特征。之后,我们开发了一个迭代的粗到加密相关网络,以了解模板与搜索区域之间的稳健跨相关性。它通过交叉注意将模板与搜索区域中的潜在目标联系起来,制定了交叉功能的增强。为了进一步增强潜在目标,它采用了自我功能增强,该增强功能将自我注意力应用于特征空间的本地K-NN图来汇总目标特征。 Kitti,Nuscenes和Waymo数据集的实验表明,我们的方法在3D单一对象跟踪任务上实现了最先进的性能。
translated by 谷歌翻译
很少有人提出了几乎没有阶级的课程学习(FSCIL),目的是使深度学习系统能够逐步学习有限的数据。最近,一位先驱声称,通常使用的基于重播的课堂学习方法(CIL)是无效的,因此对于FSCIL而言并不是首选。如果真理,这对FSCIL领域产生了重大影响。在本文中,我们通过经验结果表明,采用数据重播非常有利。但是,存储和重播旧数据可能会导致隐私问题。为了解决此问题,我们或建议使用无数据重播,该重播可以通过发电机综合数据而无需访问真实数据。在观察知识蒸馏的不确定数据的有效性时,我们在发电机培训中强加了熵正则化,以鼓励更不确定的例子。此外,我们建议使用单速样标签重新标记生成的数据。这种修改使网络可以通过完全减少交叉渗透损失来学习,从而减轻了在常规知识蒸馏方法中平衡不同目标的问题。最后,我们对CIFAR-100,Miniimagenet和Cub-200展示了广泛的实验结果和分析,以证明我们提出的效果。
translated by 谷歌翻译